データセット(第6章 固有表現認識)
llm-book/ner-wikipedia-dataset
固有表現タイプごとに集計している
(スパンまたぎについて)
テキストを正規化済みかも集計できる
huggingface/datasetsのDatasetDictは__repr__でデータセットの概要が見られる